moe

大模型推理,得讲性价比

如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊病,还能够降本增效,便于训练和部署。

模型 性价比 推理 moe moe模型 2025-06-06 18:39  7

2025从DeepSeek到品牌跃迁AI之于品牌的机遇与挑战

2025年,人工智能技术迭代升级,DeepSeek以MoE混合架构与动态训练算法,实现大模型性能与能效比指数级提升,开启“普惠智能”新纪元。其开源生态深度构建,将智能能力以标准化API、行业解决方案等形态注入千行百业,重塑行业规则,推动AI深度渗透产品创新、用

模型 品牌 开源 deepseek moe 2025-06-06 14:11  8

中信建投 | 华为发布Pangu Ultra MoE 模型中文技术报告

华为盘古团队发布了 Pangu Ultra MoE 模型架构与训练方法的中文技术报告,披露了模型的细节,其核心突破在于实现了“全栈国产化”——完全基于昇腾AI计算平台训练,参数量达7180亿,是中国首个自主可控的超大规模稀疏混合专家模型(MoE)。这一成果标志

ultra moe pangu ultramoe 2025-06-04 13:48  9

中国AI又迭代了吗

5月底,DeepSeek-R1模型完成一次版本迭代,这次“小更新”引发了大量关注,测评显示,其整体性能逼近目前顶级模型OpenAI o3和谷歌Gemini 2.5-Pro。

gemini 推理 r2 moe 盘古 2025-06-03 14:08  9

腾讯辟谣微信已读及访客功能;禁用Cursor等第三方AI开发工具后,字节内部再发通知;宇树回应更名“股份有限公司” | Q资讯

微信推出“朋友圈访客”和“已读”功能?Cursor 等第三方 AI 开发工具后,员工争议不断,字节内部再发通知致歉 ;英伟达 2026 财年 Q1 财报:营收同比增长 69%;宇树回应更名“股份有限公司”;百度回应支付李彦宏私人飞机费用京东外卖“百亿补贴”规则

微信 腾讯 字节 moe cursor 2025-06-01 10:33  10

大模型指令追踪的神经元密码

2025年5月,一篇尚未正式发表的arXiv预印本悄然掀起波澜。研究者们像拆解精密钟表般剖开大语言模型(LLM)的黑箱,在神经元与专家模块的丛林里,他们发现了专属于不同指令的“开关”。这项研究或许将改变我们理解AI思考方式的角度——原来模型执行指令时,并非全脑

模型 神经元 moe 预印本 arxiv预印本 2025-05-31 22:10  9

喜娜AI速递:昨夜今晨财经热点要闻|2025年5月31日

金融市场犹如变幻莫测的海洋,时刻涌动着投资与经济政策的波澜,深刻影响着全球经济的走向。在此,喜娜AI为您呈上昨夜今晨的财经热点新闻,全方位覆盖股市动态、经济数据、企业财务状况以及政策更新等关键领域,助您精准洞察金融世界的风云变幻,把握市场脉搏。

玛特 速递 moe 盘古 逆回购 2025-05-31 06:35  9